The computational complexity of the self-attention mechanism in Transformer models significantly limits their ability to generalize over long temporal durations. Memory-augmentation, or the explicit storing of past information in external memory for subsequent predictions, has become a constructive avenue for mitigating this limitation. We argue that memory-augmented Transformers can benefit substantially from considering insights from the memory literature in humans. We detail an approach for integrating evidence from the human memory system through the specification of cross-domain linking hypotheses. We then provide an empirical demonstration to evaluate the use of surprisal as a linking hypothesis, and further identify the limitations of this approach to inform future research.
translated by 谷歌翻译
图形神经网络(GNNS)已被广泛用于许多域,在这些领域中,数据被表示为图,包括社交网络,推荐系统,生物学,化学等。最近,GNNS的表现力引起了人们的兴趣。已经表明,尽管GNNS在许多应用中取得了有希望的经验结果,但GNN中存在一些局限性,阻碍了他们对某些任务的绩效。例如,由于GNNS更新节点功能主要基于本地信息,因此它们在捕获图中节点之间的长距离依赖性方面具有有限的表达能力。为了解决GNN的一些局限性,最近的几项工作开始探索增强的GNN,并记忆以提高其在相关任务中的表现力。在本文中,我们对现有的记忆启发性GNN的现有文献进行了全面综述。我们通过心理学和神经科学的角度回顾了这些作品,后者已经在生物学大脑中建立了多种记忆系统和机制。我们提出了记忆GNN作品的分类法,以及比较记忆机制的一组标准。我们还提供有关这些作品局限性的重要讨论。最后,我们讨论了该领域的挑战和未来方向。
translated by 谷歌翻译
Air pollution is an emerging problem that needs to be solved especially in developed and developing countries. In Vietnam, air pollution is also a concerning issue in big cities such as Hanoi and Ho Chi Minh cities where air pollution comes mostly from vehicles such as cars and motorbikes. In order to tackle the problem, the paper focuses on developing a solution that can estimate the emitted PM2.5 pollutants by counting the number of vehicles in the traffic. We first investigated among the recent object detection models and developed our own traffic surveillance system. The observed traffic density showed a similar trend to the measured PM2.5 with a certain lagging in time, suggesting a relation between traffic density and PM2.5. We further express this relationship with a mathematical model which can estimate the PM2.5 value based on the observed traffic density. The estimated result showed a great correlation with the measured PM2.5 plots in the urban area context.
translated by 谷歌翻译
Recognizing handwriting images is challenging due to the vast variation in writing style across many people and distinct linguistic aspects of writing languages. In Vietnamese, besides the modern Latin characters, there are accent and letter marks together with characters that draw confusion to state-of-the-art handwriting recognition methods. Moreover, as a low-resource language, there are not many datasets for researching handwriting recognition in Vietnamese, which makes handwriting recognition in this language have a barrier for researchers to approach. Recent works evaluated offline handwriting recognition methods in Vietnamese using images from an online handwriting dataset constructed by connecting pen stroke coordinates without further processing. This approach obviously can not measure the ability of recognition methods effectively, as it is trivial and may be lack of features that are essential in offline handwriting images. Therefore, in this paper, we propose the Transferring method to construct a handwriting image dataset that associates crucial natural attributes required for offline handwriting images. Using our method, we provide a first high-quality synthetic dataset which is complex and natural for efficiently evaluating handwriting recognition methods. In addition, we conduct experiments with various state-of-the-art methods to figure out the challenge to reach the solution for handwriting recognition in Vietnamese.
translated by 谷歌翻译
可解释的机器学习旨在了解复杂的黑盒系统的推理过程,这些系统因缺乏解释性而臭名昭著。一种不断增长的解释方法是通过反事实解释,这超出了为什么系统做出一定决定,以进一步提供有关用户可以采取哪些方法来改变结果的建议。反事实示例必须能够应对黑框分类器的原始预测,同时还满足实用应用程序的各种约束。这些限制存在于一个和另一个之间的权衡处,对现有作品提出了根本的挑战。为此,我们提出了一个基于随机学习的框架,可以有效地平衡反事实权衡。该框架由具有互补角色的一代和特征选择模块组成:前者的目标是建模有效的反事实的分布,而后者则以允许可区分训练和摊销优化的方式执行其他约束。我们证明了我们方法在产生可行和合理的反事实中的有效性,这些反事实比现有方法更多样化,尤其是比具有相同能力的对应物更有效的方式。
translated by 谷歌翻译
在过去的两年中,从2020年到2021年,Covid-19在包括越南在内的许多国家 /地区都破坏了预防疾病措施,并对人类生活和社会社区的各个方面产生了负面影响。此外,社区中的误导性信息和有关大流行的虚假新闻也是严重的情况。因此,我们提出了第一个基于越南社区的问题答复数据集,用于开发COVID-19的问题答案系统,称为UIT-VICOV19QA。该数据集包括从可信赖的医疗来源收集的4,500对提问,至少有一个答案,每个问题最多有四个独特的解释答案。除数据集外,我们还建立了各种深度学习模型作为基线,以评估数据集的质量,并通过BLEU,Meteor和Rouge-l等常用指标来进一步研究基准结果,以进行进一步的研究。我们还说明了对这些模型进行多个解释答案的积极影响,尤其是在变压器上 - 研究领域的主要结构。
translated by 谷歌翻译
机器学习已被用来识别脸上的情绪,通常是通过寻找8种不同的情绪状态(中性,快乐,悲伤,惊喜,恐惧,厌恶,愤怒和鄙视)。我们考虑两种方法:基于面部标志的功能识别和所有像素的深度学习;每个产生总体准确性58%。但是,他们在不同的图像上产生了不同的结果,因此我们提出了一种结合这些方法的新的元分类器。它以77%的精度产生更好的结果
translated by 谷歌翻译
本文报道的研究通过应用计算机视觉技术将普通的垃圾桶转化为更聪明的垃圾箱。在传感器和执行器设备的支持下,垃圾桶可以自动对垃圾进行分类。特别是,垃圾箱上的摄像头拍摄垃圾的照片,然后进行中央处理单元分析,并决定将垃圾桶放入哪个垃圾箱中。我们的垃圾箱系统的准确性达到90%。此外,我们的模型已连接到Internet,以更新垃圾箱状态以进行进一步管理。开发了用于管理垃圾箱的移动应用程序。
translated by 谷歌翻译
来自RGB视频的多人姿势理解包括三个复杂的任务:姿势估计,跟踪和运动预测。在这三个任务中,姿势估计和跟踪是相关的,跟踪对于运动预测至关重要。大多数现有作品要么专注于单个任务,要么采用级联方法来分别解决每个任务。在本文中,我们提出了狙击手,这是一个框架,以同时进行单个推断,同时进行多人3D姿势估计,跟踪和运动预测。具体而言,我们首先提出了一种可变形的注意机制,以从视频片段中汇总时空信息。基于这种可变形的注意力,学会了视觉变压器来编码从多框架图像中的时空特征,并解码信息性姿势功能以更新多人姿势查询。最后,对这些查询进行了回归,以预测一个正向传球中的多人姿势轨迹和未来动作。在实验中,我们显示了狙击手对三个具有挑战性的公共数据集的有效性,在该数据集中,通用模型竞争对手专门的姿势估计,跟踪和预测的最先进基线。代码可在\ href {https://github.com/jimmyzou/snipper} {https://github.com/jimmyzou/snipper}中获得。
translated by 谷歌翻译
可解释的机器学习提供了有关哪些因素推动了黑盒系统的一定预测以及是否信任高风险决策或大规模部署的洞察力。现有方法主要集中于选择解释性输入功能,这些功能遵循本地添加剂或实例方法。加性模型使用启发式采样扰动来依次学习实例特定解释器。因此,该过程效率低下,并且容易受到条件较差的样品的影响。同时,实例技术直接学习本地采样分布,并可以从其他输入中利用全球信息。但是,由于严格依赖预定义的功能,他们只能解释单一级预测并在不同设置上遇到不一致的情况。这项工作利用了这两种方法的优势,并提出了一个全球框架,用于同时学习多个目标类别的本地解释。我们还提出了一种自适应推理策略,以确定特定实例的最佳功能数量。我们的模型解释器极大地超过了忠诚的添加和实例的对应物,而在各种数据集和Black-box模型体系结构上获得了高水平的简洁性。
translated by 谷歌翻译